今天帶大家認識目前最火紅的核心技術-大型語言模型(Large Language Model, LLM)。
如果說生成式 AI 是這幾年 AI 浪潮的主角,那 LLM 就是它的「心臟」。
一、什麼是 LLM?
大型語言模型(LLM)是一種基於 深度學習與 Transformer 架構 訓練出來的模型。它的目標很簡單:
⭢預測下一個最有可能出現的字。
看起來簡單,卻能做到:
回答問題
撰寫文章
翻譯語言
甚至寫程式碼
核心觀念是:只要你有足夠大的資料與參數,模型就能學到人類語言的模式,進而生成連貫、自然的內容。
二、LLM 的訓練過程
4.調整參數
三、LLM 的核心原理:機率預測
LLM 並不是真的「懂」語言,而是透過統計機率來預測下一個字。
例如:
看到「今天下」 → 很可能接「雨」。
看到「駭客發送了一封」 → 很可能接「釣魚郵件」。
這種「機率式的預測」經過龐大資料與參數的支持,讓 LLM 生成的內容看起來就像人類寫的。
四、LLM 的能力與限制
能力:
能生成流暢的自然語言。
具備多領域的知識(因為資料來源廣泛)。
可以透過微調(Fine-tuning)適應特定任務。
限制:
可能產生「幻覺」(捏造不存在的事實)。
訓練需要龐大算力與資源。
無法真正「理解」,它只是數字與機率的運算結果。
五、跟資安的關聯
在資安領域,LLM 帶來了雙面刃的影響:
正面:可以輔助安全分析、自動化產生規則、協助偵測異常行為。
負面:駭客也能用 LLM 生成釣魚郵件、假訊息,甚至撰寫惡意程式碼。
所以,理解 LLM 的基本原理,不只是技術學習,也是我們面對新型資安威脅的基礎。